GitHub 上有哪些优秀的 Python 爬虫项目? | 您所在的位置:网站首页 › python 爬虫find › GitHub 上有哪些优秀的 Python 爬虫项目? |
可以毛遂自荐么,虽然没有楼上推荐的那些爬虫项目那么优秀,完全是业余时候打发时间的小作品,不过供新手学习使用还是绰绰有余的。(收藏是点赞的两倍,小伙伴们随手点个赞同呀~) 1. 模拟登录各大网站——DecryptLogin项目地址: https://github.com/CharlesPikachu/DecryptLogin 项目中文文档: https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/ 这是一个利用requests来模拟登录各大网站的开源包,目前支持模拟登录以下平台: 利用pip命令安装该包后: pip install DecryptLogin只需要简单的几行代码就可以实现支持列表中的任意一个网站的模拟登录操作,例如模拟登录百度网盘: from DecryptLogin import login lg = login.Login() infos_return, session = lg.baidupan(username, password, 'pc')其中infos_return是一个字典对象,里面有用户登录后的一些基本信息,session是已经登录了目标网站的会话(requests.Session对象)。 那么模拟登录网站后有什么用呢?别担心,该开源项目会不定期添加一些需要模拟登录的爬虫小案例,帮助你更好地学习爬虫: 每个案例都对应了我微信公众号里的一篇讲解文章(虽然文章可能不太走心,写的比较粗略,微信公众号名是“Charles的皮卡丘”,感兴趣的可以搜索关注一下)。例如微博监控: 网易云音乐自动签到脚本: 大吼一声发条微博: 爬取目标用户的所有微博数据: 生成QQ个人专属报告: 下载B站指定UP主的所有视频: 网易云个人歌单下载器: 等等。 或许有人懒得点进去,放几个视频吧(都是公众号+Github里的案例): ![]() ![]() 项目地址: https://github.com/CharlesPikachu/musicdl 项目文档: https://musicdl.readthedocs.io/zh/latest/index.html 目标支持的平台情况: 运行效果是这样子的: ![]() 项目地址: https://github.com/CharlesPikachu/Video-Downloader 也很久没更新了,大概长这样: 写的时间有点久了,我自己都可能看不懂自己写的代码是啥玩意了。and最近没有重构计划。有需要的可以自己看看改改。 4.其他因为爬虫项目维护起来比较麻烦,所以我一般懒得传到Github上,有兴趣的小伙伴可以关注一下我的微信公众号"Charles的皮卡丘",里面会不定期分享一些爬虫项目(因为现在不太喜欢写爬虫了,后面比较偏向于发自己的主业CV,或者说AI相关的内容)。然后在底部菜单栏的历史文章里可以看到我发过的所有爬虫代码,需要的自取就ok了。 对了,这里面好像也有几个零星的爬虫相关的项目: https://github.com/CharlesPikachu/Tools |
CopyRight 2018-2019 实验室设备网 版权所有 |